PDF Extractor SDK for Windows-programvareutviklere: PDF til Tekst, PDF til XML, Bilder fra PDF, Les PDF-informasjon, PDF til CSV for Excel.
Bytescout PDF Extractor SDK gjør det mulig å konvertere PDF til tekst, PDF til XML, PDF til CSV, pakke ut bilder fra PDF, ekstrahere informasjon om PDF-filer i. NET og ActiveX-grensesnitt uten ekstra programvare nødvendig.
Fordeler:
konverterer PDF til vanlig tekst (og kan følge kolonner hvis du konverterer en avis i PDF-format) - inkludert usynlig tekstutvinning;
konverterer tabeller i PDF til Excel (CSV) ved å lese celler fra gitt rektangel;
konverterer tabeller i PDF til XML-filer;
utdrag PDF-metadata (tittel, forfatter, beskrivelse) og få annen informasjon om filen (antall sider, kryptert eller ikke);
trekker inn innebygde bilder fra PDF-dokument (i ASP.NET, VB.NET, C #, VB6 og VBScript);
DocumentMerger og DocumentSplitter-grensesnitt og klasser for å slå sammen og dele PDF-dokumenter;
krever ikke at Adobe Reader eller annen programvare for PDF-leser skal installeres
gir. NET og ActiveX-grensesnitt;
laget med 100% styrt C # kode.
Hva er nytt i denne versjonen:
Versjon 9.0.0.3079: Lagt til filtrering av utvunnet innhold etter skriftnavn, skriftstørrelse og farge.
Oppdatert OCR-motor til den nyeste versjonen. Oppdater språkfiler fra 'tessdata' -mappen.
Forbedret tekstutvinning, linjer som grupperer i tabelldata, ytelse, utvinning av XFA-former, TableDetector, faste PDF-parsingproblemer.
Hva er nytt i versjon 8.7.0.2980:
Lagt til filtrering av utvunnet innhold etter skriftnavn, skriftstørrelse og farge.
Oppdatert OCR-motor til den nyeste versjonen. Oppdater språkfiler fra 'tessdata' -mappen.
Forbedret tekstutvinning, linjer som grupperer i tabelldata, ytelse, utvinning av XFA-former, TableDetector, faste PDF-parsingproblemer.
Hva er nytt i versjon 8.6.0.2911:
Lagt til filtrering av utvunnet innhold etter skriftnavn, skriftstørrelse og farge.
Oppdatert OCR-motor til den nyeste versjonen. Oppdater språkfiler fra 'tessdata' -mappen.
Forbedret tekstutvinning, linjer som grupperer i tabelldata, ytelse, utvinning av XFA-former, TableDetector, faste PDF-parsingproblemer.
Hva er nytt i versjon 8.2.0.2699:
Versjon 8.2.0.2699 kan inneholde uspesifiserte oppdateringer, forbedringer eller feilrettinger.
Hva er nytt i versjon 8.0.0.2528:
Hva er nytt i versjon 7.0.0.2474:
Versjon 7.0.0.2474:
- lagt til ny DocumentPrinter-verktøysklasse som tillater å skrive ut PDF-dokumenter stille (uten brukerdialoger)
- lagt til en ny JSONExtractor-klasse
- lagt overstyring for DocumentSplitter.Split () -metoden slik at du kan spesifisere utdatamappen for genererte filer
- Fast multi-threading bug i DocumentSplitter
- tableDetector respekterer nå utvinningsareal sett med SetExtractionArea () -metoden
- Nye egenskaper i utvinningsklasser: ExtractionColumns - inneholder koordinater av detekterte kolonner; CustomExtractionColumns - tillater å overstyre kolonnedeteksjonen
- GetPageRect * -metoder tok ikke hensyn til sidetrotasjonen.
Fast feil i installasjonsprogrammet som forårsaket noen filer fra forrige installasjon, forstyrret oppdateringer - Endret registreringskontrollen. Nå vil biblioteket ikke kaste et unntak, men jobbe i demomodus hvis du har gått glipp av eller angitt feil Registreringsnavn og RegistrationKey
- PDF Multitool: Lagt til nylig dokumentliste til "Åpne PDF-dokument" -knappen
- PDF Multitool: Valg kan resizes nå
- PDF Multitool: Added Extract JSON-funksjonen
- PDF Multitool: Forbedret tabelldetektorbruker
- PDF Multitool: Stor forbedret fontgengiv kvalitet
- PDF Multitool: Lagt opp feilsøkingsalternativet "Vis oppdagede utvinningskolonner" i kontekstmenyen for å vise de oppdagede kolonnene på gjeldende side. Blir synlig bare etter å ha kjørt noen utvinning mot den gjeldende viste siden
- PDF Multitool: Faste skriftgjenopprettingsproblem på 32-biters Windows
- Andre mindre forbedringer og feilrettinger
Hva er nytt i versjon 6.30.0.2421:
Version 6.30.0.2421:
- Lagt til TextComparer-verktøysklassen (kun tilgjengelig i .NET 4.0-enheter), slik at du kan sammenligne tekst i to PDF-dokumenter og generere rapport.
- Forbedret støtte til ICC-fargeprofilene.
- Imporved håndtering av innebygde fonter.
- Forbedret VedleggExtractor.
- Fast XMLExtractor.SaveXMLToStream () metode.
- Ferdig ekstraheret tekst duplisering når du bruker OCRCacheMode.WholePage alternativet.
- Andre feilrettinger og forbedringer.
Hva er nytt i versjon 6.20.2354:
Versjon 6.20.2354:
- PDF til tekst, PDF til CSV, PDF For å forbedre XML-funksjonene
- Ny utdrag video, trekk ut lydeksempler
- CSV- og XML-ekstrakter forbedret støtte for tabeller med tomme kolonner inni
- ny MultimediaExtractor for å pakke ut video og lyd fra PDF
- ny egenskap PageDataCaching
- nytt "MemoryCareProcessingOfHugeFiles" eksempel
- Fast null-unntak når du prøver å disponere allerede avsatte sider
- XLSExtractor: forbedrer skriftstøtten
- SkipInvisibleText hopper nå klippet tekst (som ikke er synlig)
- gjengivelse av tekstutdataene forbedret
- XFDF Extractor: lagt til støtte for avmerkingsboks
- Utdataene er forbedret for å støtte flere underformater
- Unicode tekstbehandling forbedret
Hva er nytt i versjon 6.11.2149:
Versjon 6.11.2149:
- Batchbehandlingsprøver oppdatert for å vise bruken av Reset () -metoden
- C + + kildekodeprøve lagt til Pages Extraction
- DocumentMerger legger til Merge2 (inputfile1, inputfile2, outputfile) metode for å fusjonere 2 filer
- XLS Extractor mindre feilrettinger
- PDF Multitool lar deg nå aktivere / deaktivere tekst, bilde, vektorlag, legger til avanserte innstillinger for tekstutvinning
- XML, CSV, tabellutvinning forbedrer støtte for tabeller med emtpryceller i kolonner
- .ExtractShadowLikeText eiendom forbedret: bedre filtrering for skyggeaktig tekst
Hva er nytt i versjon 6.10.2136:
Versjon 6.10.2136:
- PDF til XML, PDF til CSV, PDF til tekstfunksjonalitet forbedret
- PDF til XLS kommandolinjeprøve lagt til (basert på vbscript)
- PDF til HTML SDK legger til ny .DetectHyperLinks-egenskap (TRUE som standard) for å aktivere / deaktivere automatisk oppdagelse av koblinger i teksten
- Ny SearchablePDFMaker (tilgjengelig for PRO-lisenser) for å konvertere PDF til søkbare PDF-filer
- Nye egenskaper i extractor: ConsiderFontNames, ConsiderFontSizes, ConsiderFontColors, ConsiderVerticalBorders i CFG-filer
- gjenkjenning av topptekst (når AutoAlighHeaderToColumns = true) forbedret
- .DetectLinesInsteadOfParagraphs erstattet med new .LineGroupingMode for å kontrollere hvordan linjer slås sammen i avsnitt
- OBS! PDF Til XML reparerer langtidsproblem med feil Y-koordinat for tekstobjekter (var pek på nederst til venstre i stedet for øverst til venstre)
- .TableXMinIntersectionRequiredInPercents og .TableYMinIntersectionRequiredInPercents egenskaper lagt til
- C ++ kildekode prøve lagt til
- XML Extractor reparerer mangler tomme kolonner i PreserveFormatting = sann modus
- Små reparasjoner i farger i enkelte PDF-filer
- støtte for flere OCR-språk lagt til
- PDF Multitool GUI: legger til Kopier til utklippstavlen til TXT, CSV, XML og raster renderer dialoger
- XLSExtractor: legger til SideToWorksheet-egenskapen for å aktivere / deaktivere generering av separate regneark per side
- ny .TextEncodingCodePage-egenskap
- PDFViewerControl: legger til ValidateContextMenu slik at brukeren kan legge til egendefinerte elementer i kontekstmenyen
- PDF Viewer kontroll: legger til egenskaper ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor legger nå til "OCRConfidence" -attributt for gjenkjent tekst
- PDF / En kontrollfunksjonalitet (i beta)
- forbedrer kontroller og tekstkontroll og justering i henhold til det opprinnelige oppsettet. Problemet ble forårsaket av skiftet av Y-koordinater i kontroller mens du analyserte: det var feil. Den riktige måten er å shif ...
- XML Extractor oppdatert: produserer nå CONTROL-tag for avmerkingsbokser og tekstfelt
- endret ved hjelp av gjeldende katalog til tempkatalog
- ruter, radioboxer, redigeringsbokser, kombinasjonsbokser støttes bedre
- lar nå delvis tillitskringere
Hva er nytt i versjon 5.80.1781:
Versjon 5.80.1781:
- PDF til XML, PDF til CSV, PDF til Tekst-funksjonalitet oppdatert
- OCRMode gir nå 9 moduser
- .DetectLineInsteadOfParagraph fungerer nå mye bedre. Sett den til False for å fange multiline tekst i tabellceller!
- PDF-kontroller støttes forbedret
- FDF og XFDF datautvinning
Hva er nytt i versjon 5.10.1747:
Versjon 5.10.1747:
- PDF til XML, PDF til CSV, PDF til tekstfunksjoner forbedret
- støtter nå tekstutvinning fra tekstkontroller
- XML-ekstraktor legger nå skrifttypestil, størrelse, navn, tekstkoordinater til koder
- ASP.NET-prøve for OCR-bruk lagt til
- Ny eiendom OCRLanguageDataFolder for å spesifisere plasseringen av "tessdata" -mappen
- forbedret støtte for PDF-filer
- forbedrer støtten til rotert tekst
- oppdaterte kildekodenprøver
- oppdatert dokumentasjon
- mindre forbedringer og reparasjoner
Hva er nytt i versjon 5.00.1626:
Versjon 5.00.1626:
- OCR (tekst fra bilder) funksjonalitet lagt til: nå kan du trekke ut tekst fra innebygde bilder og reparere skadet tekst
- Problemet er løst med CSV og XML-ekstraktor som mangler siste kolonner med noen innstillinger
- forbedret støtte for skadede PDF-filer
- Multiline søkesøk med søkeordmodus støttes nå
- kan nå søke etter tekst med bindestreker og på forskjellige linjer: se ny kildekodeeksempel Finn tekst med hypner
- ny egenskap .RTLTextAutoDetectionEnabled (false som standard) til automatisk oppdage RTL språk
- PDF Viewer GUI demo forbedret
- mindre forbedringer og reparasjoner
Krav :
.NET Framework 2.0 eller høyere
Begrensninger :
Nag skjerm, vannmerke på utgang
Kommentarer ikke funnet